خوشه بندی اسناد متنی مبتنی بر مفاهیم همسایگی و شباهت معنایی

thesis
abstract

خوشه بندی، روش داده کاوی قدرتمندی است که جهت کشف موضوع از اسناد متنی مورد استفاده قرار می-گیرد. در این زمینه الگوریتم های خانواده k-means به دلیل سادگی و سرعت بالا، در خوشه بندی داده هایی با ابعاد بالا، کاربرد فراوانی دارند. در این الگوریتم ها، معیار شباهت cosine، تنها شباهت میان زوج اسناد را اندازه گیری می کند که در مواقعی که خوشه ها به خوبی تفکیک نشده باشند، عملکرد مناسبی ندارد. درمقابل، مفاهیم همسایگی و اتصال با در نظرگرفتن اطلاعات سراسری در محاسبه میزان نزدیکی دو سند، عملکرد بسیار بهتری دارند. چنانچه میزان شباهت دو سند از حد آستانه ای بیشتر باشد آن دو سند همسایه اند و تعداد همسایه های مشترک میان آنها، مقدار تابع اتصال این دو سند را نشان می دهد. بنابراین با توجه به اینکه تنها دو حالت همسایگی و عدم همسایگی داریم که با صفر و یک نمایش داده می شوند، مقداری از اطلاعات را در مورد میزان شباهت میان اسناد از دست می دهیم که منجر به کاهش دقت خوشه بندی حاصل می شود. جهت رفع این مشکل، در گام اول لیستی از مقادیر گسسته را برای تعیین بازه ای از مقادیر آستانه به جای تنها یک مقدار، در نظر گرفتیم که به دنبال آن درجات متفاوتی از همسایگی، بر اساس میزان شباهت میان اسناد خواهیم داشت. همچنین جهت افزایش هر چه بیشتر دقت نتایج حاصل، از منطق فازی نیز بهره برده و مقدار شباهت میان اسناد را با استفاده از مقادیر عضویت فازی نمایش دادیم. به این ترتیب میزان همبستگی میان اسناد را با استفاده از منطق فازی بهبود داده و گام جدیدی در کاربردهای منطق فازی برداشتیم. همچنین در این مدل، روابط معنایی میان کلمات نادیده گرفته شده و تنها اسنادی با واژگان مشابه با یکدیگر مرتبط شده اند. در این پروژه پایانی از آنتولوژی wordnet جهت ایجاد مدل جدید نمایش اسناد بهره بردیم، بدین صورت که در آن از روابط معنایی به منظور وزن گذاری مجدد بسامد کلمات در مدل فضای برداری اسناد استفاده شده است. سپس مفاهیم همسایگی و اتصال را بر روی مدل حاصل اعمال نمودیم. نتایج حاصل از اعمال روش های پیشنهادی و ترکیبات آنها بر روی مجموعه داده های متن واقعی، حاکی از عملکرد موثر و مناسب تر الگوریتم پیشنهادی ما نسبت به روش های پیشین می باشد و می تواند جایگزین خوبی برای الگوریتم های پیشین در امر خوشه بندی اسناد باشد.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

خوشه بندی فراابتکاری اسناد فارسی اِکس اِم اِل مبتنی بر شباهت ساختاری و محتوایی

با توجه به رشد فزاینده ی تعداد اسناد xml، سازماندهی موثر این اسناد به منظور بازیابی اطلاعات مفید از آنها ضروری می باشد. یک راه حل امکان پذیر، انجام خوشه بندی بر روی اسناد xml به منظور کشف دانش است. مسئله کلیدی در خوشه بندی اسناد xml این است که چگونه می توان شباهت بین اسناد xml را اندازه گیری کرد. استفاده از روش های متداول خوشه بندی اسناد متنی که اطلاعات محتوایی را برای اندازه گیری شباهت سند بکا...

full text

تشخیص برون افتادگی فضایی مبتنی بر شباهت معنایی همسایگی ها

با توجه به اینکه انتظار می رود داده هایی که از لحاظ موقیت مکانی به هم نزدیک هستند رفتار مشابهی نیز داشته باشند، لذا عموما برون افتادگی فضایی به صورت محلی و در همسایگی های نزدیک بررسی می شود. در بسیاری از پدیده ها رفتار اشیاء فضایی تحت تاثیر فرآیند ها و اشیاء پیرامون است. بنابراین برای انجام هرگونه تحلیل موثر لازم است ویژگی های فضایی و غیر فضایی اشیاء، روابط فضایی ضمنی و شفاف آن ها با دیگر اشیاء...

خوشه بندی اسناد متنی الکترونیکی بر اساس دانش پس زمینه و وزن دهی ابعاد و مفاهیم

خوشه بندی یا دسته بندی بدون نظارت با سازمان دهی پیکره های بزرگ متنی، نقش کلیدی در پیمایش و مرور آسان انبوهی از متون دارد. نقش این سازمان دهی در موتورهای جستجو برای ارائه خوشه های معنادار مرتبط با پرس و جو، جهت پیشگیری از سردرگمی کاربر در حجم عظیمی از اسناد بازیابی شده بیشتر نمایان می شود. علاوه بر مشکلاتی نظیر تعداد ابعاد بسیار زیاد و تحلیل خوشه ای، متاسفانه دیدگاه متعارف خوشه بندی های افرازی و...

15 صفحه اول

طبقه بندی معنایی تصاویر متنی مبتنی بر الگوی ارزشمندی متن

استخراج اطلاعات از تصاویر متنی شناسایی شده از مجرای اینترنت یکی از مهمترین معضلات سیستم های جمع آوری اطلاعاتی در حوزه تکنولوژی اطلاعات می باشد. این مسأله وقتی حادتر می گردد که بدانیم در بین انبوه تصاویر متنی تنها درصد ناچیزی از تصاویر متنی شناسایی شده، دارای ارزش اطلاعاتی می باشند. در این مقاله، جهت تجزیه و تحلیل تصاویر متنی و دسترسی به محتوای آنها، از یک روش طبقه بندی مبتنی بر ناحیه بندی تصویر...

full text

بسط پرس وجو با خوشه بندی اسناد شبه بازخورد با شباهت حساس به پرس وجو

بسط پرس‌وجو به‌عنوان یکی از روش‌های انطباق پرس‌وجو، اثربخشی جستجو را در بازیابی اطلاعات افزایش می‌دهد. بازخورد شبه مرتبط (PRF) روشی برای بسط پرس‌وجو است که فرض می‌کند اسناد رتبه بالا از نتایج اولیه مرتبط به موضوع پرس‌وجو هستند و کلمات بسط را از این اسناد انتخاب می‌کند. درحالی‌که ممکن است اسناد نامرتبط به پرس‌وجو در اسناد رتبه‌بالا وجود داشته باشد. روش‌هایی برای انتخاب اسناد مرتبط و نادیده گرفتن...

full text

خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با ...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023